智能论文笔记

Dimensionality Reduction for Categorical Data

Debajyoti Bera , Rameshwar Pratap , Bhisham Dev Verma

分类：机器学习

2021-12-01

分类属性是那些可以采用离散值集的那些，例如颜色。这项工作是关于将vects压缩到基于小维度离散矢量的分类属性。基于目前的哈希的方法将传感器压缩到低维离散矢量的分类属性不提供压缩表示之间的汉明距离的任何保证。在这里，我们呈现fsketch以创建稀疏分类数据的草图和估算器，以估计仅从其草图中的未压缩数据之间的成对汉明距离。我们声称这些草图可以在通常的数据挖掘任务中使用代替原始数据而不会影响任务的质量。为此，我们确保草图也是分类，稀疏，汉明距离估计是合理的精确性。素描结构和汉明距离估计算法都只需要一条单通;此外，对数据点的改变可以以有效的方式结合到其草图中。压缩性取决于数据的稀疏程度如何且与原始维度无关 - 使我们的算法对许多现实生活场景具有吸引力。我们的索赔通过对FSKetch性质的严格理论分析来支持，并通过对某些现实世界数据集的相关算法进行广泛的比较评估。我们表明FSKetch明显更快，并且通过使用其草图获得的准确性是RMSE，聚类和相似性搜索的标准无监督任务的顶部。

translated by 谷歌翻译

Efficient Binary Embedding of Categorical Data using BinSketch

Bhisham Dev Verma , Rameshwar Pratap , Debajyoti Bera

分类：机器学习

2021-11-13

在这项工作中，我们提出了一种维度减少算法，即AKA。素描，用于分类数据集。我们提出的草图算法舱从高维分类向量构造低维二进制草图，我们的距离估计算法CHAM仅计算任何两个原始向量之间的汉明距离的近似近似。 Cham以确保良好估计的速度要求的最小尺寸理论上只取决于数据点的稀疏性 - 使其对涉及稀疏数据集的许多现实生活场景有用。我们对我们的方法提供了严格的理论分析，并在几个高维现实世界数据集上进行了广泛的实验，包括一个超过一百万维度的实验。我们表明，与使用完整数据集和其他维数减少技术相比，机舱和Cham Duo是一种明显的快速准确的任务和群集，如RMSE，全对相似性和聚类。

translated by 谷歌翻译

Quantum Boosting using Domain-Partitioning Hypotheses

Debajyoti Bera , Rohan Bhatia , Parmeet Singh Chani , Sagnik Chatterjee

分类：机器学习

2021-10-25

提升是一种合奏学习方法，它将弱者的学习者转换为PAC学习框架中的强大学习者。 Freund和Schapire设计了名为Adaboost的Godel Priad获奖算法，该算法可以促进学习者，从而输出二进制假设。最近，Arunachalam和Maity提供了第一个具有相似理论保证的量子增强算法。他们的算法，我们称之为Qadaboost，因此是adaboost的量子适应，仅适用于二元假设情况。就弱学习者的假设类别的VC维度而言，Qadaboost的四边形比Adaboost更快，但在弱学习者的偏见中多一级差。 Izdebski等。关于我们是否可以促进输出非二元假设的量子弱学习者提出了一个悬而未决的问题。在这项工作中，我们通过开发QRealBoost算法来解决这个开放的问题，该算法是由经典的室内启动算法激发的。主要的技术挑战是，鉴于量子子例程是嘈杂的和概率的，为融合，泛化界限和量子加速提供可证明的保证。我们证明，QRealBoost在Adaboost上保留了Qadaboost的二次加速度，并进一步实现了Qadaboost的多项式加速，从学习者的偏见和学习者为学习目标概念类别所花费的时间而言。最后，我们对QRealBoost进行了经验评估，并通过对QRealBoost对Qadaboost，Adaboost和Realboost的收敛性能进行基准对MNIST数据集和乳腺癌Wisconsin Dataset的子集进行基准收敛性能，从而对量子模拟器进行了经验评估。

translated by 谷歌翻译

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Teven Le Scao , Angela Fan , Christopher Akiki , Ellie Pavlick , Suzana Ilić , Daniel Hesslow , Roman Castagné , Alexandra Sasha Luccioni , François Yvon , Matthias Gallé

分类：自然语言处理

2022-11-09

Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.

translated by 谷歌翻译

Design Perspectives of Multitask Deep Learning Models and Applications

Yeshwant Singh , Anupam Biswas , Angshuman Bora , Debashish Malakar , Subham Chakraborty , Suman Bera

分类：机器学习 | 人工智能 | 计算机视觉

2022-09-27

近年来，多任务学习在各种应用程序中都取得了巨大的成功。尽管这些年来，单个模型培训已承诺取得出色的成果，但它忽略了有价值的信息，这些信息可能有助于我们更好地估计一个指标。在与学习相关的任务下，多任务学习能够更好地概括模型。我们试图通过在相关任务和归纳转移学习之间共享功能来增强多任务模型的功能映射。此外，我们的兴趣是学习各种任务之间的任务关系，以从多任务学习中获得更好的收益。在本章中，我们的目标是可视化现有的多任务模型，比较其性能，用于评估多任务模型性能的方法，讨论在各个领域的设计和实施过程中所面临的问题，以及他们实现的优势和里程碑

translated by 谷歌翻译

Placing Human Animations into 3D Scenes by Learning Interaction- and Geometry-Driven Keyframes

James F. Mullen Jr , Divya Kothandaraman , Aniket Bera , Dinesh Manocha

分类：计算机视觉

2022-09-13

我们提出了一种新颖的方法，可以将3D人类动画放入3D场景中，同时保持动画中的任何人类场景相互作用。我们使用计算动画中最重要的网格的概念，以与场景进行交互，我们称之为“键框”。这些关键框架使我们能够更好地优化动画在场景中的位置，从而使动画中的互动（站立，铺设，坐着等）与场景的负担相匹配（例如，站在地板上或躺在床上）。我们将我们称为PAAK的方法与先前的方法进行了比较，包括POSA，Prox地面真理和运动合成方法，并通过感知研究突出了我们方法的好处。人类评估者更喜欢我们的PAAK方法，而不是Prox地面真相数据64.6 \％。此外，在直接比较中，与POSA相比，评估者比竞争方法比包括61.5％的竞争方法更喜欢PAAK。

translated by 谷歌翻译

Shape Analysis for Pediatric Upper Body Motor Function Assessment

Shashwat Kumar , Robert Gutierez , Debajyoti Datta , Sarah Tolman , Allison McCrady , Silvia Blemker , Rebecca J. Scharf , Laura Barnes

分类：机器学习

2022-09-10

神经肌肉疾病，例如脊柱肌肉萎缩（SMA）和Duchenne肌肉营养不良症（DMD），导致6,000名儿童中有1例的渐进性肌肉变性和运动功能丧失。传统的上肢运动功能评估不能定量测量患者的性能，这使得很难跟踪进度的增量变化。评估神经肌肉疾病儿童的运动功能特别具有挑战性，因为他们在实验过程中可能会紧张或兴奋，或者简直太年轻而无法遵循精确的说明。这些挑战转化为混杂因素，例如执行臂卷曲的不同部分较慢或更快（相位变异性），从而影响评估的运动质量。本文使用曲线注册和形状分析来暂时对齐轨迹，同时提取平均参考形状。距这种平均形状的距离用于评估运动质量。所提出的指标是混杂因素（例如相位变异性）的不变性，同时提出了几种临床相关的见解。首先，控制和患者人群的功能分数在统计上存在显着差异（p $ = $ 0.0213 $ \ le $ 0.05）。接下来，患者队列中的几名患者能够与健康队列进行运动，反之亦然。我们的指标是根据可穿戴设备计算的，与Brooke的分数有关（（P $ = $ 0.00063 $ \ le $ $ 0.05））以及基于功能测定法的电动机功能评估（（P $ = $ = $ 0.0006 $ \ le $ 0.05））。这些结果表明了日常生活中无处不在的运动质量评估的希望。

translated by 谷歌翻译

SR-GNN: Spatial Relation-aware Graph Neural Network for Fine-Grained Image Categorization

Asish Bera , Zachary Wharton , Yonghuai Liu , Nik Bessis , Ardhendu Behera

分类：计算机视觉 | 人工智能

2022-09-05

在过去的几年中，基于深度卷积神经网络（CNN）的图像识别已取得了重大进展。这主要是由于此类网络在挖掘判别对象姿势以及质地和形状的零件信息方面具有强大的能力。这通常不适合细粒度的视觉分类（FGVC），因为它由于阻塞，变形，照明等而表现出较高的类内和较低的阶层差异。表征对象/场景。为此，我们提出了一种方法，该方法可以通过汇总大多数相关图像区域的上下文感知特征及其在区分细颗粒类别中避免边界框和/或可区分的零件注释中的重要性来有效捕获细微的变化。我们的方法的灵感来自最新的自我注意力和图形神经网络（GNNS）方法的启发端到端的学习过程。我们的模型在八个基准数据集上进行了评估，该数据集由细粒对象和人类对象相互作用组成。它的表现优于最先进的方法，其识别准确性很大。

translated by 谷歌翻译

Hermes: Accelerating Long-Latency Load Requests via Perceptron-Based Off-Chip Load Prediction

Rahul Bera , Konstantinos Kanellopoulos , Shankar Balachandran , David Novo , Ataberk Olgun , Mohammad Sadrosadati , Onur Mutlu

分类：机器学习

2022-09-01

长期负载请求继续限制高性能处理器的性能。为了提高处理器的潜伏能力，建筑师主要依赖两种关键技术：复杂的数据预脱水和较大的芯片固定缓存。在这项工作中，我们表明：1）即使是先进的先进预摘要，也只能预测一半的外芯片负载请求，平均在广泛的工作负载中，而2）由于尺寸的增加，并且片上缓存的复杂性，花片载荷请求的延迟的很大一部分用于访问片上缓存层次结构。这项工作的目的是通过从其关键路径上删除片上缓存访问延迟来加速片外负载请求。为此，我们提出了一种称为爱马仕（Hermes）的新技术，其关键想法是：1）准确预测哪些负载请求可能会偏离芯片，2）猜测预测的芯片外载荷直接从主芯片负载所需的数据内存，同时也同时访问此类负载的高速缓存层次结构。为了启用爱马仕，我们开发了一种新的轻巧，基于智障的外芯片加载预测技术，该技术学会使用多个程序功能（例如，程序计数器的序列）来识别芯片外负载请求。对于每个负载请求，预测器都会观察一组程序功能，以预测负载是否会外芯片。如果预计负载将放置芯片，Hermes一旦生成负载的物理地址，就会直接向内存控制器发出投机请求。如果预测是正确的，则负载最终会错过缓存层次结构，并等待正在进行的投机请求完成，从而将芯片上缓存层次结构访问延迟隐藏在离芯片外负载的关键路径中。我们的评估表明，爱马仕显着提高了最先进的基线的性能。我们开源爱马仕。

translated by 谷歌翻译

BigBIO: A Framework for Data-Centric Biomedical Natural Language Processing

Jason Alan Fries , Leon Weber , Natasha Seelam , Gabriel Altay , Debajyoti Datta , Samuele Garda , Myungsun Kang , Ruisi Su , Wojciech Kusa , Samuel Cahyawijaya

分类：自然语言处理

2022-06-30

培训和评估语言模型越来越多地要求构建元数据 - 多样化的策划数据收集，并具有清晰的出处。自然语言提示最近通过将现有的，有监督的数据集转换为多种新颖的预处理任务，突出了元数据策划的好处，从而改善了零击的概括。尽管将这些以数据为中心的方法转化为生物医学语言建模的通用域文本成功，但由于标记的生物医学数据集在流行的数据中心中的代表性大大不足，因此仍然具有挑战性。为了应对这一挑战，我们介绍了BigBio一个由126个以上的生物医学NLP数据集的社区库，目前涵盖12个任务类别和10多种语言。 BigBio通过对数据集及其元数据进行程序化访问来促进可再现的元数据策划，并与当前的平台兼容，以及时工程和端到端的几个/零射击语言模型评估。我们讨论了我们的任务架构协调，数据审核，贡献指南的过程，并概述了两个说明性用例：生物医学提示和大规模，多任务学习的零射门评估。 BigBio是一项持续的社区努力，可在https://github.com/bigscience-workshop/biomedical上获得。

translated by 谷歌翻译